Indexation de co-occurrences dans des corpus de documents structurés et production de cartes sémantiques interactives

نویسندگان

Pierre Pompidor

Boris Carbonneill

Michel Sala

چکیده

This paper addresses the problem of indexing very large enterprise corpuses. We have designed a simple yet efficient (in terms of computation time and the size of the generated results) method allowing to filter, on a per-document basis, the most representative co-occurrences of the documents. The reason for using co-occurrences is twofold. First, queries composed by experts on specialized corpuses rely statistically on few chosen terms, for which we index the associations. Second, such co-occurrences facilitate the construction of semantic maps used to navigate the concepts of the corpus. Our main approach is to take into account the structure of the documents by validating the content of the paragraphs by their titles. Our method starts with successive tf.idf measures of paragraph contents taken in the context of a document, to which we progressively integrate the hierarchy of their introducing titles. We then simultaneously exploit a control ontology and the user queries containing the terms that we discriminated in the first step in order to validate, using Bayes’ theorem, the semantic associations contained in a paragraph given the terms of its title. MOTS-CLÉS : exploitation de la structure des documents, indexation incrémentale de très grands corpus, contexte de co-occurrences, théorème de Bayes, cartes sémantiques.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques

RÉSUMÉ. Cet article s’intéresse à l’indexation des données ayant une sémantique pauvre dans des documents structurés. Le but est d’exploiter le contenu des données symboliques avoisinantes afin d’en extraire les fragments adéquats pour compléter l’indexation de la donnée non symbolique. Cette approche a été abordée dans le cadre concret d’une application dans un contexte professionnel : indexer...

متن کامل

Apprentissage actif pour l'annotation de documents

RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

Restructuration automatique de documents dans les corpus semi-structurés hétérogènes

Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consi...

متن کامل

Etablissement de l'immunité et élaboration des anticorps neutralisants et agglutinants, chez le lapin, par injection de virus de la vaccine incorporé dans les vaccins associés. Rôle des injections de rappel

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

Document Numérique

دوره 12 شماره

صفحات -

تاریخ انتشار 2009

Indexation de co-occurrences dans des corpus de documents structurés et production de cartes sémantiques interactives

نویسندگان

چکیده

منابع مشابه

Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques

Apprentissage actif pour l'annotation de documents

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Restructuration automatique de documents dans les corpus semi-structurés hétérogènes

Etablissement de l'immunité et élaboration des anticorps neutralisants et agglutinants, chez le lapin, par injection de virus de la vaccine incorporé dans les vaccins associés. Rôle des injections de rappel

عنوان ژورنال:

اشتراک گذاری